Telegram Group & Telegram Channel
A Generalist Agent (Gato) [2022] - путь к AGI или тупик?

На мой взгляд, проблема требуемого количества данных в RL не может быть решена только улучшением алгоритмов.

Человек учится избегать отрицательных наград, не получив ни разу такую награду (например, нам не нужно упасть на машине в обрыв, чтобы понять, что это плохая стратегия вождения). Это происходит благодаря обобщению опыта из прошлого, полученного при решении совершенно других задач.

Deepmind в данной работе делает систему, которая аккумулирует опыт из большого количества задач - они учат единый трансформер под названием Gato копировать поведение экспертов в >500 различных задач в области RL, включая игры, управление роботом и т.д.

Сработала ли магия? К сожалению, не совсем.

На картинке вы можете увидеть графики из ablation studies о том, насколько хорошо помогает в обучении на конкретной задаче предобучение на других задачах.
Имеет смысл смотреть на худший случай - Atari Boxing, в котором модель со случайном инициализацией обучается лучше предобученного Gato.
Это показывает, что обобщающей способности такого подхода не хватает, чтобы учиться быстрее на достаточно простой, но не похожей задаче.

Думаю, что мы нуждаемся в другом способе извлечения знаний из данных, если хотим добиться out-of-the-distribution обобщения, способностью к которому обладаем мы с вами.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/50
Create:
Last Update:

A Generalist Agent (Gato) [2022] - путь к AGI или тупик?

На мой взгляд, проблема требуемого количества данных в RL не может быть решена только улучшением алгоритмов.

Человек учится избегать отрицательных наград, не получив ни разу такую награду (например, нам не нужно упасть на машине в обрыв, чтобы понять, что это плохая стратегия вождения). Это происходит благодаря обобщению опыта из прошлого, полученного при решении совершенно других задач.

Deepmind в данной работе делает систему, которая аккумулирует опыт из большого количества задач - они учат единый трансформер под названием Gato копировать поведение экспертов в >500 различных задач в области RL, включая игры, управление роботом и т.д.

Сработала ли магия? К сожалению, не совсем.

На картинке вы можете увидеть графики из ablation studies о том, насколько хорошо помогает в обучении на конкретной задаче предобучение на других задачах.
Имеет смысл смотреть на худший случай - Atari Boxing, в котором модель со случайном инициализацией обучается лучше предобученного Gato.
Это показывает, что обобщающей способности такого подхода не хватает, чтобы учиться быстрее на достаточно простой, но не похожей задаче.

Думаю, что мы нуждаемся в другом способе извлечения знаний из данных, если хотим добиться out-of-the-distribution обобщения, способностью к которому обладаем мы с вами.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/50

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

The lead from Wall Street offers little clarity as the major averages opened lower on Friday and then bounced back and forth across the unchanged line, finally finishing mixed and little changed.The Dow added 33.18 points or 0.10 percent to finish at 34,798.00, while the NASDAQ eased 4.54 points or 0.03 percent to close at 15,047.70 and the S&P 500 rose 6.50 points or 0.15 percent to end at 4,455.48. For the week, the Dow rose 0.6 percent, the NASDAQ added 0.1 percent and the S&P gained 0.5 percent.The lackluster performance on Wall Street came on uncertainty about the outlook for the markets following recent volatility.

Telegram Gives Up On Crypto Blockchain Project

Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. “The technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. “Unfortunately, a U.S. court stopped TON from happening.”

Knowledge Accumulator from us


Telegram Knowledge Accumulator
FROM USA